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面向 中 文 图 书评 论 的 情感 词典 构建 方法 


研究 


SPI) SKI 
(吉林 大 学 管理 学 院 长春 130022) 


摘要 : 
究 将 用 户 情 感 分 为 7 类 ,对 采集 到 的 语料库 进行 分 词 ， 


[ 目的 ] 探讨 中 文 图 书评 论 情感 词典 构建 方法 ， 以 便 进 行 用 户 图 书评 论 的 情感 分 析 。[ 方法 ] 参照 相关 研 
结合 基础 情感 词典 得 到 中 文 图 书评 论 的 情感 词 集 ， 选取 各 


类 情感 种 子 词 ; 利用 改进 的 SO-PMI 算法 和 同义词 词 林 扩展 方法 判别 词语 的 情感 类 别 ; 以 实际 的 图 书评 论 作 为 
语 料 进行 实验 验证 。[ 结果 】 提 出 一 种 中 文 图 书评 论 的 情感 词典 构建 方法 ， 其 平均 准确 率 、 平 均 召 回 率 及 Fl 的 
均值 分 别 为 0.90、0.83 和 0.85. [ 局 限 ] 语料库 小 , 样本 范围 具有 一 定 的 局 限 性 。[ 结论 ] 实验 结果 表明 本 文 方 
法 具有 和 较 高 的 有 效 性 和 可 靠 性 , 能 够 有 效 地 进行 用 户 图 书评 论 的 情感 分 析 。 


关键 词 : 中 文 图 书评 论 
分 类 号 : G353 


情感 词典 ”种 子 词 


情感 分 类 SO-PMI 算 法 


了 中 


1 5l 


随 着 互联 网 的 发 展 ， 越 来 越 多 的 用 户 通过 网 络 社 
交 平 台 对 日 常 新 闻 事件 、 产 品 、 政 策 制度 等 发 表 个 人 
观点 和 意见 ， 从 而 形成 用 户 评 论 。 用 户 评 论 中 含有 大 
量 的 情感 词语 , 能 够 体现 出 用 户 的 个 人 情感 。 在 商务 
领域 , 用 户 评论 是 指 用 户 购买 或 体验 某 一 产品 后 对 产 
品 和 服务 做 出 的 评价 , 能 够 体现 出 用 户 对 产品 的 个 人 
情感 信息 , 通常 用 于 商业 反馈 。 用 户 图 书评 论 是 指 用 


图 书评 论 进行 情感 分 析 需 要 用 到 情感 词典 , 目前 国内 
还 没有 一 部 完善 的 大 规模 中 文 图 书评 论 情感 词典 。 中 
文 图 书评 论 情感 词典 是 进行 中 文 图 书评 论 情感 分 析 的 
前 提 ， 如何 从 大 量 的 用 户 图 书评 论 获取 情感 词汇 , B 
动 构 建 中 文 图 书评 论 的 情感 词典 , 已 成 为 中 文 图 书评 
论 情感 分 析 研 究 最 需 解 决 的 问题 。 


2 国内 外 研究 现状 
在 情感 词典 构建 研究 中 , 国外 的 研究 人 员 主 要 基 


户 对 于 某 一 本 图 书 发 表 的 评论 或 介绍 书籍 的 文本 ,是 
以 “ 书 ” 为 对 象 , 实事 求 是、 有 识 见 地 分 析 书 籍 的 形式 
和 内 容 , 探求 创作 的 思想 性 、 学 术 性 、 知 识 性 和 艺术 
性 ， 从 而 在 作者 、 读 者 和 出 版 商 之 间 构 建 信息 交流 的 
渠道 中 ， 即 用 户 阅 读 某 本 书后 对 于 书 中 内 容 的 评价 以 
及 个 人 情感 观点 的 表达 , 能够 体现 出 用 户 对 于 图 书 的 
情感 信息 。 利 用 用 户 图 书评 论 进行 情感 分 析 能 够 更 好 
地 挖 据 用 户 行为 ,为 图 书 的 发 行 出 版 以 及 其 他 用 户 的 
阅读 选择 提供 建议 。 如 何 快 速 准 确 地 对 大 量 的 用 户 图 
书评 论 进行 情感 分 析 成 为 重要 的 研究 课题 。 对 于 用 户 


于 WordNet 词 典 进行 英文 情感 词典 的 构建 研究 叫 ， 
Turney 通 过 改进 PMI-IR 算 法 进行 无 监督 的 情感 分 析 并 
取得 较 好 的 效果 Bl]。Subasic 等 手工 构建 一 个 基于 情感 
类 别 相 关 的 词典 , 词典 中 标明 了 词 的 强度 (表达 情感 的 
力度 ) 和 向 心 度 ( 与 类 别 的 相关 程度 ) 外 。 目 前 国内 中 文 
情感 词典 的 构建 研究 工作 也 取得 了 部 分 成 果 。 借 助 
HowNet、《 同 义 词 词 林 》 等 词典 ,在 HowNet 的 基础 上 
构建 特定 情感 词典 的 研究 也 有 很 多 。 例 如 柳 位 平等 在 
中 文 词 语 相似 度 计算 方法 的 基础 上 , 提出 一 种 中 文 情 
感 词 语 的 情感 权 值 的 计算 方法 , 并 以 情感 词语 集 为 基 
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WE, 构建 中 文 基础 情感 词典 趾 , 国 内 对 于 微 博 情感 词典 
的 构建 研究 相对 较 多 , 不 同 的 学 者 利用 不 同 的 方法 从 
不 同 的 角度 进行 微 博 情感 词典 的 构建 。 李 钰 整合 基础 
情感 词典 、 虚 词 词典 、 表 情 符号 情感 词 由 和 网 络 用 语 
情感 词典 得 到 微 博 情 感 词典 向。 桂 斌 等 基于 微 博 表情 
符号 , 提出 一 种 自动 构建 情感 词典 的 方法 趾 , 也 有 相关 
的 学 者 对 于 不 用 的 领域 , 构建 相关 的 领域 情感 词典 ， 
如 周 号 梅 等 借鉴 图 排序 模型 的 原理 , 提出 一 种 新 闻 评 
论 人 情感 词 典 构 建 方法 外 。 东 成 益 等 利用 改进 后 的 
Hevner 情 感 环 模型 为 基础 , 借助 HowNet 所 提供 的 语义 
资源 和 从 网 络 爬 取 的 歌词 文本 语料库 , 构建 了 一 部 音 
乐 领域 中 文 情感 词典 外。 还 有 其 他 领域 的 相关 情感 词 
典 ， 例 如 酒店 评论 情感 词典 [9 、 微 博 产 品评 论 情 感 词 
典 趾 、 电 影评 论 情感 词典 中 等 。 

笔者 经 过 调研 发 现 面向 中 文 图 书评 论 领域 情感 研 
究 很 少 ,其 相关 的 情感 词典 研究 几乎 空白 。 中 文 图 书 
评论 不 同 于 其 他 领域 的 用 户 评论 , 它 使 用 的 很 多 词语 
具有 较 强 的 文学 性 和 学 术 性 ， 有些 情感 词语 在 其 他 领 
域 评 论 中 很 少 使 用 , 具有 一 定 的 专业 特色 。 例 如 “ 讶 
异 ”、“ 妙 笔 生花 ”等 词 。 同 时 中 文 图 书评 论 具有 固定 的 
书写 格式 , 拥有 一 定 的 规范 性 。 因 此 其 他 领域 的 情感 
研究 难以 有 效 地 应 用 于 中 文 图 书评 论 的 情感 分 析 研 
究 , 使 其 具有 一 定 的 研究 价值 和 意义 。 因 此 , 本文 提 出 
一 种 中 文 图 书评 论 情感 词典 的 构建 方法 ,并 构建 一 部 
中 文 图 书评 论 情感 词典 ,以 便于 后 续 的 中 文 图 书评 论 
的 情感 分 析 。 


3 ”中 文 图 书评 论 情感 词典 构建 思路 概述 


本 文 提 出 的 中 文 图 书评 论 情感 词典 构建 方法 的 基 
本 流程 如 图 1 所 示 。 

(1) 参照 文献 [13] 中 的 情感 分 类 方法 将 中 文 图 书 
评论 的 情感 分 为 7 大 类 。 

(2) 利用 ROST CM6 分 词 工具 一 将 采集 到 的 中 文 
图 书评 论语 料 库 进 行 分 词 和 词 频 统计 ， 结 合 基础 情 
感 词典 进行 比较 分 析 后 综合 得 到 中 文 图 书评 论 情感 
词 集 。 


中 文 图 书评 论 
语料库 


中 文 图 书评 论 7 类 
情感 种 子 词 


判别 情感 词 的 情感 
类 别 (不 含 种 子 词 ) 
SO-PMI 算 法 


中 文 图 书评 论 
情感 词典 


图 1 中 文 图 书评 论 情感 词典 构建 流程 
(4) 利用 改进 的 SO-PMI 算法 对 中 文 图 书评 论 情 感 
词 集中 的 情感 词语 (除了 种 子 词 以 外 ) 进 行情 感 归 类 , 通 
过 同义词 词 林 咏 扩展 的 方法 解决 数据 稀 玻 问题 .得 到 每 
个 情感 词语 的 关联 度 , 根据 关联 度 的 大 小 将 情感 词语 
归 到 中 文 图 书评 论 7 类 情感 类 别 中 。 
(5) 得 到 中 文 图 书评 论 情感 词典。 


4 基于 SO-PMI 算法 的 中 文 图 书评 论 情感 
词典 构建 研究 


41 ”中 文 图 书评 论 情感 分 类 

中 文 图 书评 论 能 够 体现 出 读者 的 情感 ， 同 时 不 同 
类 型 的 图 书 与 不 同 的 情感 类 别 相 联系 , 因此 有 必要 将 
中 文 图 书评 论 体现 出 的 用 户 情 感 分 成 不 同 的 类 别 。 目 
前 , 心理 学 界 对 于 情感 的 分 类 没有 公认 的 标准 , 人 研究 
者 将 情感 分 为 4、6、8、10 7528 20 余 类 不 等 。 本 文 参 
照 文献 [13] 中 的 用 户 情感 分 类 方法 , 综合 现 有 的 情感 


(3) 中 文 图 书评 论 7 大 类 种 子 情感 词 的 产生 。 在 产 
生 的 情感 词 集 基 础 上 查询 情感 词汇 本 体 中 情感 词 的 强 
BE, 结合 情感 词 集中 情感 词 词 频 , 利用 人 工 筛 选 判定 的 
方法 , 得 到 中 文 图 书评 论 7 大 类 情感 的 种 子 词 。 
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词汇 资源 , 将 中 文 图 书评 论 的 用 户 情感 分 为 7 类 , 分 
AIR. HE. TER. X. TR. E. D 
4.0 中文 图 书评 论 情感 词 集 的 产生 
互联 网 上 用 户 的 图 书评 论 中 使 用 了 一 些 网 络 新 词 


和 网 络 用语 , 现 有 的 情感 词典 不 能 够 覆盖 用 户 图 书评 
论 中 所 有 的 情感 词 。 因 此 本 文通 过 整合 现 有 的 情感 词 
典 、 用 户 图 书评 论语 料 库 中 的 情感 词语 以 及 互联 网 上 
的 网 络 用 语 , 构建 用 户 网 书评 论 的 数据 。 在 中 文 图 书 
评论 情感 词 集 构建 过 程 中 ,主要 使 用 的 情感 词典 资源 有 : 
大 连理 工大 学 信息 检索 研究 室 的 情感 词汇 本 体 中 、 
HowNet 情感 词典 04 和 台湾 大 学 的 中 文 情 感 极 性 词典 
NTUSDI' 1、 网 络 情感 词 词典 ， 其 中 网 络 情感 词典 采用 
人 工 收集 的 方式 进行 构造 。 在 中 文 图 书评 论 的 情感 词 
集 的 构建 过 程 中 , 利用 疏 虫 软件 集 搜 客 GooSeekert 
从 豆 为 网 上 的 豆 办 读书 中 疏 取 文学 、 流 行 、 文 化 、 生 
活 、 经 管 、 科 技 类 的 图 书评 论 。 经 过 去 除 中 性 评论 、 
垃圾 评论 和 表情 符号 的 转换 等 预 处 理 ， 共 收集 到 关于 
8 500 本 图 书 , 总 计 255 000 余 条 的 用 户 图 书评 论 数 
据 。 利 用 ROST CM6 分 词 工具 进行 切 词 和 词 频 统计 ， 
经 过 人 工 筛选 和 判断 去 掉 词 频数 量 较 低 的 词语 , 形成 
中 文 图 书评 论 词 集 WordSetl 。 将 情感 词汇 本 体 、 


T 
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情感 词 词典 中 的 情感 词语 合并 构成 基础 情感 词典 词 数 
Hi WordSet2, 将 获得 的 中 文 图 书评 论 词 集 WordSetl 与 
基础 情感 词典 词 集 WordSet2 中 的 词语 进行 比较 , HU 
个 词 集 的 交集 形成 中 文 图 书评 论 情感 词 集 WordSet。 
经 过 以 上 的 处 理 后 得 到 的 中 文 图 书评 论 词 集 WordSet 
含有 881 个 情感 词语 。 
4.3 ”种 子 情感 词 的 选择 

本 文 拟 采用 一 种 改进 的 SO-PMI 算法 进行 词语 情 
感 倾向 性 判断 ， 所 以 需要 进行 种 子 词 的 选择 。 这 里 的 种 
子 词 是 指 情感 态度 非常 明显 .强烈 .具有 代表 性 的 词语 。 


-H-4H 


在 4.2 节 得 到 的 中 文 图 书评 论 情 感 词 集 WordSet 的 基础 


E, 查询 这 些 词语 在 情感 本 体 中 的 强度 , 将 强度 最 大 且 
在 语 料 中 出 现 频率 较 多 的 词 作为 候选 种 子 情感 词 ， 例 
如 “团圆 这 个 词语 在 情感 本 体 中 的 情感 强度 为 9 (最 
强 ), 情感 分 类 小 类 为 快乐 , 大 类 为 乐 , 而 在 中 文 图 书评 
论语 料 库 中 统计 频率 为 4 782 次 , 则 将 它 作为 乐 的 候选 
种 子 情感 词 。 经 过 上 述 的 选择 处 理 , 得 到 7 类 情感 的 种 


HowNet 情感 词典 和 中 文 情 感 极 性 词典 NTUSD 、 网 络 


子 情感 词 共计 191 个 , 形成 种 子 词 集 S, 如 表 1 所 示 : 


表 1 中 文 图 书评 论 7 类 情感 种 子 词 
情感 类 别 情感 种 子 词 
乐 (16) 得 意 洋洋 皆大欢喜 痛快 淋漓 大 功 告 成 喜 滋 滋 GSDER 随心 所 和 欲 舒畅 欣喜 若 狂 令 人 满意 晋升 得 心 应 手 喜气 洋洋 
ii 开心 愉快 团圆 
主力 至 上 美好 令 人 钦佩 SAME 痛 痛快 快 BAME 仁慈 英雄 侠客 鲜花 财宝 义无反顾 完满 倾注 妙笔 生花 
好 (59) 秀 外 惠 中 平易 近 人 善良 WKK 英明 功 不 可 没 珍重 和 谐 珍惜 史无前例 歌 功 颁 德 痛快 淋 沉 力挽狂澜 别具一格 TK 
救 美妙 珍贵 创新 ME 推崇 赞许 英俊 过 人 侠义 完备 BRR 文武 双全 推荐 推进 开朗 辩护 漂亮 令 人 信服 


倾心 珍藏 倾倒 珍宝 至 亲 
咬牙 切 齿 杀气 DAKE f 


陶醉 珍品 珍视 珍爱 法 


oc 


RC 精疲力竭 筋疲力尽 投诉 


债 肝火 ARIRE 怒气 六 巨 痛 深 一 无 所 有 E 


pak 创 


ZUD 火 mix 气急 败坏 dU k 
ROD 受害 舍弃 创伤 血泪 亡国 血案 遍体鳞伤 ER HWER BE 千 头 万 绪 AR RE 无 影 无 踪 拒绝 悲惨 I 
"E SARS 团团 转 财政 危机 REL DAKM 灾难 性 ME E 项 刻 提心吊胆 受惊 绝望 令 人 不 安 
RUO 悬崖 峭 壁 惊魂 未 定 
ROD HEOR 叹为观止 奇怪 奇迹 EEAS 大 吃 一 惊 BUD 大 惊 失色 NE 讶 异 RUN 

恶毒 邪恶 XP WIR 凶恶 恶心 受过 勉强 两 难 受苦 受挫 受骗 受制 令 人 发 指 令 人 作呕 TORRE BR HUE BM 
pos X BE 铁路 推脱 杀伤 AR 勾当 完 绰 违心 一 无 是 处 AREE MAEM 胡作非为 SEMA SRAM 里 通 外 
565 mu LAM 违背 庸俗 帝国 主义 EA Sm 罪恶 过 激 忘 恩 负 义 孤芳自赏 殴打 AARM 血腥 违反 eh 丑恶 


We) 模棱两可 SRSH AU 霸占 


44 基于 改进 的 SO-PMI 算法 的 情感 词 情感 类 别 
判断 方法 

词语 情感 类 别 判断 的 方法 主要 有 基于 HowNet 
的 语义 相似 度 计 算 方 法 以 及 基于 SO-PMI 的 情感 词 倾 
向 性 计算 方法 交 。 因 为 用 户 的 图 书评 论 中 存在 大 量 
的 网 络 新 闻 ， 例 如 “给 力 ”"、“ 正 能 量 ”“ 坑 驳 ” 等 在 


HE 里 


HowNet 中 找 不 到 义 原 , 从 而 也 就 无 法 根据 两 个 词义 
原 的 相似 度 计算 词语 的 相似 度 , 所 以 基于 HowNet 的 
语义 相似 度 计算 方法 进行 中 文 图 书评 论 中 部 分 词 的 情 
感 类 别 判断 并 不 适用 。 所 以 本 文 提出 一 种 改进 的 基于 
SO-PMI 的 词语 情感 类 别 判别 方法 , 通过 互信 息 计算 
未 知 词 与 各 类 种 子 词 关联 度 的 方法 对 未 知 词 的 情感 类 
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别 进 行 判 断 。 如 公式 (所 示 : 


P(word;, word; ) 


PMlI(word,, word; ) = lo 
( : 2) E P(word; )P(word;) 


(1) 


Hif, PMI(word;, word) 表示 word, 与 word, 的 
XKE, P(word;, word, ) 表示 word, 与 word, 共 现 的 
MESS, P(word,) 表示 word, 在 语料库 中 出 现 的 概率 ， 
P(word,) 表示 word, 在 语料库 中 出 现 的 概率 。 

使 用 词语 出 现 的 次 数 代 替 出 现 的 概率 , 由 于 两 词 
语 共 现 之 间 的 距离 与 两 词语 的 关联 强度 成 反比 ， 即 两 
词语 离 得 越 近 ,关联 度 越 大 ; 反之 , 两 词语 离 得 越 远 ， 


(C A 
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表示 词语 的 词 频数 。s, 表示 第 i 类 情感 种 子 词 集合 Si 
中 的 第 a 个 情感 词 ，hit(word, ,s,) 表示 词语 word, 和 
sa 在 以 同一 本 书 的 评论 为 共 现 窗口 中 共 现 的 次 数 。 
M,(1 &i X 7) 表示 第 i 类 情感 种 子 词 集 Si 中 种 子 词 的 
数量 。 

由 于 每 类 情感 的 种 子 词 数量 不 同 ,可 能 会 出 现 未 
知情 感 词 并 不 与 该 类 最 相关 , 也 会 因为 该 类 情感 情感 
种 子 词 多 造成 累加 项 较 多 ,从 而 使 得 总 的 相关 度 最 
高 。 为 了 避免 出 现 此 类 偏差 , EHM; xix 7) 表示 
第 i 类 情感 种 子 词 集 Si 中 种 子 词 的 数量 , 将 Mi 加 入 到 


关联 度 越 小 。 应 用 在 词语 的 情感 倾向 性 分 析 中 ,就 是 

两 词语 离 得 越 近 , 情感 倾向 性 相关 的 可 能 性 越 高 。 两 个 

词语 之 间 的 距离 用 两 个 词语 之 间 的 字符 数量 表示 , 把 

两 个 词语 在 同一 评论 中 距离 的 最 小 值 作为 两 个 词语 的 

共 现 距离 d, 两 个 词语 之 间 的 共 现 距离 d 计 算 公式 如 下 : 
d - min |d, -dy| (2) 


其 中 ，d 表示 两 个 词语 之 间 的 共 现 距离 ，d, 表示 
在 每 条 评论 中 从 评论 开始 到 两 个 词语 排 在 前 面 词语 的 
最 后 一 个 字符 的 字符 个 数 ，d, 表示 在 每 条 评论 中 从 评 
论 开始 到 两 个 词语 排 在 后 面 词语 的 第 一 个 字符 的 字符 
个 数 。 

为 此 本 研究 将 两 个 词语 之 间 的 共 现 距离 4 加 入 到 
互信 息 计算 公式 中 则 可 以 将 公式 (1) 变 换 成 公式 (3): 


Nx hit(word,, word. ) 
dx hit(word,) x hit(word. ) 


其 中 ，N 表示 语料库 中 所 有 词语 的 总 次 数 ，hit 
表示 词语 的 词 频 数 。hit(word,word, ) 表示 词语 word, 
和 word, 在 以 同一 本 书 的 评论 为 单位 中 总 计 共 现 的 次 
数 。d 表示 两 个 词语 之 间 的 共 现 距离 。 

中 文 图 书评 论 情 感 词 集 WordSet 去 除 种子 词 后 形 
成 需要 判断 的 图 书评 论 情感 词 集 为 WordSetX o RAI 
情感 词 word, 与 每 一 类 情感 之 间 的 情感 词 关联 度 
SO_PMI(word,,Si) 是 未 知 的 情感 词 word, 和 第 i 类 
情感 的 种 子 词 集合 S; (117) 中 的 每 个 种 子 词 的 
PMI 之 和 ,如 公式 (4) 所 示 : 


PMlI(word,, word> ) = log,( 


G) 


SO PMl(word,,S;)- >》 log; 


Sa ES; 


Nxhit(word,,s,) 
M; x dx hit(word, ) x hit(s, ) 


4) 
其 中 , N 表示 语料库 中 所 有 词语 的 总 次 数 ，hit 
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公式 消除 此 类 偏差 。 

由 于 利用 互信 息 进 行 关联 度 的 计算 会 受到 语 料 
库 规模 的 影响 ,同时 也 因为 用 户 写作 习惯 的 不 同 , 不 
同 的 用 户 在 撰写 评论 的 时 候 ， 可 能 会 使 用 不 同 的 词 
语 表 达 相 同 的 意思 即使 同一 用 户 在 撰写 评论 中 也 常 
常会 使 用 同义词 表达 相同 的 意思 。 所 以 仅仅 考虑 一 个 
词语 与 种 子 词 的 共 现 信 息 就 可 能 出 现 数据 稀 玻 问题 。 
因此 本 研究 在 计算 候选 词 情 感 极 性 时 , 通过 同义词 
词 林 扩展 版 对 候选 词 进行 扩展 ， 从 而 减少 某 些 词 在 
语料库 中 出 现 频率 太 低 所 带 来 的 数据 稀 玻 问题 。 根 据 
相关 的 实验 随 着 扩展 次 数 的 增加 会 致使 原 词 损失 话 
义 ,， 所 以 本 研究 将 扩展 迭代 次 数 设 为 三 次 。 

利用 本 文 提出 的 改进 SO_PMI 算法 进行 词语 的 
情感 类 别 分 类 的 算法 如 下 : 

输 入: WordSetX，S， 同 义 词 词 集 SameWord, N, 
Mi(L<i 和 7)。 

输出 : WordSetX 中 的 未 知情 感 词 word, 的 情感 分 类 。 

DA WordSetX PIRE d Ae Hp RI] word,, 1x x «690, 
种 子 词 集中 每 类 情感 的 种 子 词 集 为 S; (1 入 i 乏 7)。 

@) 按 照 公 式 (4) 计 算 情 感 词 word, 分 别 对 于 用 户 图 书评 
论 7 类 情感 的 关联 度 SO_PMI(word,,Si) o 

图 把 步骤 @ 中 计算 出 的 SO_PMI(word,,Si) 按照 从 大 到 
小 的 顺序 进行 排列 ， 取 最 大 值 作为 判断 word, 归属 于 第 i 类 
情感 的 依据 。 

(e 3 3E) P 3 X49 SO. PMI(word,,S;) 不 为 0， 则 跳 
转 到 步骤 @; 如果 最 大 的 SO_PMI(word ,Si) 为 0, 则 运用 同 
义 词 词 集 SameWord 对 word, 进行 同义词 扩展 ， 找 出 word, 的 
同义词 集合 WordSameB ， 计 算出 同义词 的 个 数 B ， 则 
1xb«B 分 别 计算 WordSameB 中 每 一 个 词语 与 7 类 情感 的 
归属 度 SO_PMI (WordSame,,S;) o 

跳 转 到 步 又 @) 进 行 判断 word, 归属 于 哪 类 情感 ， 如 果 
最 大 的 SO_PMI(WordSamep,S;) 4229 0, 则 利用 步骤 加 中 的 方 
法 对 word, 的 同义词 集合 WordSameB 进行 进一步 的 同义词 
扩展 ， 扩 展 次 数 最 多 为 三 次 ， 若 得 到 最 大 的 
SO PMl(WordSame,,S;) 45 7 0, 说明 词语 的 情感 强度 较 弱 ， 


直接 删除 。 
@ 算 法 输出 , 输出 word, 的 情感 归 类 情况 。 
@O 算 法 结束 。 


5 实验 分 析 


为 了 验证 本 研究 中 文 图 书评 论 情感 词典 构建 方法 
的 有 效 性 ， 从 词语 情感 类 别 判 定 准 确 性 和 基于 构建 的 
中 文 图 书评 论 情感 词典 分 类 性 能 两 个 方面 进行 具体 的 
实验 验证 。 利 用 GooSeeker ERUM FIRN [388 100 
本 图 书 的 图 书评 论 , 共计 有 图 书评 论 15000 余 条 , É 
成 语料库 。 经 过 预 处 理 和 数据 清洗 选取 其 中 的 5 000 
条 图 书评 论 进行 实验 , 将 这 5 000 条 图 书评 论 的 7 类 情 
感 分 类 情况 进行 人 工 标 注 。 将 利用 4.2 节 得 到 的 去 掉 
种 子 词 后 的 690 个 中 文 图 书评 论 情感 词 进 行人 工 标注 
情感 类 别 。 

5.1 判定 准确 性 实验 

通过 查询 情感 本 体 强 度 表 和 人 工 判 断 ， 得 到 690 
个 情感 词 的 人 工 判别 分 类 情况 , 利用 原 有 的 SO-PMI 
算法 进行 判别 ,利用 4.4 节 改进 的 SO-PMI 算 法 进行 情 
感 词 的 判断 ,， 得 到 改进 SO-PMI 算 法 的 分 类 情况 , 结 
如 表 2 所 示 : 

表 2 7 类 情感 的 情感 词 数量 分 布 表 


情感 分 类 条 | HRS XS IO US XS 售 
人 工 判别 58 207 62 67 59 199 38 
SO-PMI 算法 判别 48 221 51 65 57 218 30 
SO-PMI 算法 正确 判别 38 196 39 47 43 170 20 
改进 SO-PMI 算法 判别 52 213 58 73 50 211 33 
改进 SO-PMI 算法 正确 判别 49 204 46 62 48 196 26 


本 组 实验 采用 准确 率 P) 、 召 回 率 (R)、F1 值 CD) 
三 个 评估 指标 进行 改进 的 SO-PMI 算 法 与 原来 的 
SO-PMI 算 法 之 间 进 行 方 法 的 性 能 比较 , 经 计算 结果 
如 表 3 所 示 。 并 利用 SPSS 19.0 对 两 种 方法 的 判别 情况 
绘图 , 如 图 2 所 示 。 
表 3 7 类 情感 词 的 SO-PMI 算法 性 能 评估 
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图 2 两 种 方法 判别 7 类 情感 的 情感 词 分 布 对 比 


从 表 2 、 表 3 以 及 图 2 可 以 看 出 ,， 本文 改进 的 
SO-PMI 算 法 进行 情感 词 的 情感 判别 准确 率 平均 值 为 
0.89， 召 回 率 平均 值 为 0.85, F1 值 的 平均 值 为 0.86。 其 
准确 率 、 召 回 率 和 F1 值 均 比 原 有 的 SO-PMI 算 法 高 ， 
所 以 利用 改进 的 SO0-PMI 算 法 进行 情感 词 情感 判别 比 
原 有 的 SO-PMI 算 法 判别 方法 效果 好 ,所 以 总 体 看 来 
本 文中 提出 的 情感 词 情感 类 别 判 断 方法 具有 较 高 的 
准确 性 和 可 利用 性 。 例 如 : 在 进行 情感 词类 别 判 断 时 ， 
对 于 情感 词 集中 “价值 ”这 个 词 ， 图 书评 论语 句 如 下 : 

这 本 书 有 一 定 的 价值 ， 非 常 值得 推荐 。 作 者 用 悲惨 的 结 
局 。 来 解释 缺失 的 童年 ,来 深入 读者 的 内 心 产生 共鸣 ， 在 阅 
读 的 过 程 我 没有 流泪 ， 是 不 是 我 特别 的 冷血 ? 但 写 的 比 我 
预期 的 好 。 

在 对 “价值 ”这 个 词语 进行 情感 归 类 时 , 按照 4.4 节 
提出 的 计算 方法 ,“ 价 值 * 归 于 情感 类 别 “ 好 ”,“ 训 ”的 种 
子 词 数量 不 同 于 “好 ”的 种 子 词 数量 ,所 以 需要 考虑 到 
种 子 词 的 数量 , 同时 如 果 不 加 入 两 词 之 间 的 共 现 距离 d,， 
其 计算 的 关联 度 中 属于 “ 哀 "的 关联 度 大 于 属于 “好 ”出 
现 一 定 的 判别 误差 。 所 以 加 入 共 现 距离 d 和 种 子 词 的 数 
Æ M 能 够 提高 算法 的 准确 性 和 可 利用 性 。 

在 进行 词语 情感 类 别 判 断 时 , 利用 同义词 词 林 进 
行 扩展 能 够 解决 出 现 的 数据 稀 玖 性 问题 , 例如 : 对 于 
评论 “看 到 一 半 放 弃 了 , 太 苦 ， 有 些 东 西 也 无 法 认同 。” 
在 判断 词语 “ 太 昔 ?时 ,发 现 评论 太 短 , 不 存在 选取 的 7 
类 种 子 词 ， 这 时 需要 利用 同义词 词 林 进 行 扩展 评论 中 
的 相关 词语 , “放弃 ”这 个 词语 利用 同义词 扩展 可 以 得 


e RT ERES URS CORR CER EBORE 

指标 
SO-PMI P 0.79 0.80 0.76 0.72 0.75 0.78 0.67 0.77 
算法 R 0.66 0.995 0.63 0.70 0.73 0.85 0.53 0.72 
T Fl 0.72 0.92 0.69 0.71 0.74 0.81 0.59 0.74 
改进 P 0.94 0.96 0.79 0.85 0.96 0.93 0.79 0.89 
SO-PMI R 0.84 0.99 0.74 0.93 0.81 0.98 0.68 0.85 
算法 Fl 0.89 0.97 0.76 0.85 0.88 0.95 0.73 0.86 


到 词语 集合 为 : 


放弃 (JU, HORE, 遗弃， 放手, 舍弃 吐 弃 ， 丢弃 


Pa 


P JR, WA, Zik, AF, 松手 , 停止 , dedk 


T, RF, 唾弃 ， 废弃， 放胆 ,撒手 } 
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这 时 利用 同义词 集合 中 的 词语 进行 词语 情感 分 
类 , 经 过 计算 可 以 将 “ 太 苗 ” 归 为 “月 ”。 这 样 就 通过 同 义 
词 词 林 解 决 了 数据 稀 玻 性 的 问题 ,进而 提高 判断 的 准 
确 率 。 

从 结果 中 还 可 以 看 出 种 子 词 的 数量 对 于 本 文 改 进 
的 SO-PMI 方法 还 是 存在 一 定 的 影响 , 例如 “好 ”、 
Uu". uS RT CEA, 它 的 准确 率 、 召 回 率 、 
F1 值 相 对 较 高 。 虽 然 也 会 受到 种 子 词 数量 的 影响 , 但 
是 采用 本 文 提出 的 方法 判别 时 ,整体 上 比 原 有 的 
SO-PMI 方法 效果 好 。 
5.2 分 类 实验 

建立 中 文 图 书评 论 情 感 词典 的 目的 是 为 了 使 用 该 
词典 进行 中 文 图 书评 论 的 情感 分 析 。 本 研究 采用 对 比 
实验 的 方法 验证 构建 的 中 文 图 书评 论 情感 词典 的 有 效 
性 ,利用 采集 到 的 100 本 图 书 的 图 书评 论 作为 语料库 。 
对 这 5 000 条 图 书评 论 分 别 进行 分 词 , 提取 情感 词 , 采 
用 4.4 节 的 方法 进行 情感 类 别 判断 ， 从 而 实现 中 文 图 
书评 论 的 情感 分 类 。 人 工 标 注 的 5 000 条 图 书评 论 的 7 
类 情感 的 分 类 情况 和 利用 本 文 构建 的 中 文 图 书评 论 情 
感 词典 的 分 类 情况 如 表 4 所 示 。 本 组 实验 同样 也 采用 
准确 率 (P)、 召回 率 (R)、F1 值 (F1) 三 个 评估 指标 评估 分 
类 方法 的 性 能 , 经 计算 结果 如 表 5 所 示 。 


表 4 5 000 条 图 书评 论 情感 分 类 统计 


情感 分 类 | 
人 工 判 别 分 类 668 1396 469 561 532 1127 247 
中 &| 书评 论 
中 文 图 书评 论 463 1544 451 529 513 1348 152 
词典 分 类 
词典 分 类 正确 情况 437 1384 406 489 476 1113 138 


表 5 中 文 图 书评 论 情感 词典 情感 分 类 效果 性 能 评估 


分 类 乐 好 g EH 惧 E G 总 体 
P 0.94 0.89 0.90 0.92 0.93 0.83 0.91 0.90 
R 0.65 0.99 0.87 0.87 0.89 0.99 0.56 0.83 
F1 0.77 0.94 0.88 0.89 0.91 0.90 0.69 0.85 


从 表 4、 表 5 可 以 看 出 , 采用 本 文 构建 的 中 文 图 书 
评论 情感 词典 进行 图 书评 论 的 情感 分 类 的 平均 准确 率 
0.90, 平均 召回 率 为 0.83, F1 的 均值 为 0.85。 所 以 能 够 
得 出 使 用 本 文 构建 的 中 文 图 书评 论 情感 词典 进行 图 书 
评论 的 情感 分 类 具有 较 好 的 可 行 性 和 准确 性 。 从 结 
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中 还 可 以 看 出 情感 词典 中 的 词语 数量 对 于 使 用 情感 词 
典 进行 情感 分 类 同样 也 有 一 定 的 影响 。 情 感 词典 中 词 
语 的 数量 越 多 , 其 召回 率 相对 较 高 。 同 时 实验 过 程 中 
发 现 中 文 图 书评 论 的 短文 本 的 分 词 和 情感 特征 词 的 提 
取 也 影响 情感 分 类 的 结 


6 结 语 


本 文 提出 一 种 面向 中 文 图 书评 论 领域 的 情感 词典 
构建 方法 , 将 中 文 图 书评 论 的 用 户 情感 分 为 7 类 , 提 
出 一 种 改进 的 SO-PMI 算法 , 判别 中 文 图 书评 论 领 域 
情感 词 的 情感 类 别 , 得 到 中 文 图 书评 论 的 情感 词典 。 
通过 对 比 实验 验证 , 本文 提 出 的 构建 方法 具有 较 好 的 
准确 性 和 可 靠 性 。 这 种 情感 词典 的 构建 方法 同样 也 可 
以 推广 应 用 于 其 他 领域 情感 词典 的 构建 。 

同时 本 研究 存在 一 定 的 不 足 : 中 文 图 书评 论 短文 
本 的 分 词 和 词 频 统计 存在 一 定 的 误差 .用户 图 书评 论 
中 的 大 量 副词 和 连词 也 影响 图 书评 论 情感 类 别 的 判 
Wr; 另外 实验 发 现 种 子 词 的 数量 选择 和 语料库 的 规模 
对 于 情感 词 的 情感 归 类 也 有 一 定 的 影响 , 如何 合理 地 
选择 种 子 词 的 数量 ,进一步 扩大 语料库 的 规模 ,是 后 
续 研 究 和 探讨 的 重点 。 
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Building Sentiment Analysis Dictionary for Chinese Book Reviews 


Guo Shunli Zhang Xiangxian 
(School of Management, Jilin University, Changchun 130022, China) 


Abstract: [Objective] This study aims to build a sentiment analysis dictionary for the Chinese book reviews. [Methods] 
We first divided the user's sentiments into seven categories, which were used to create the Chinese book review 
emotional word list. Then, chose seed terms from that list with the help of a basic sentiment analysis lexicon. Finally, 


used the improved SO-PMI algorithm and synonym expansion method to classify target terms from the real book 


reviews. [Results] With the help of this new book review sentiment analysis dictionary, the average precision, recall 
and Fl rates were 0.90, 0.83 and 0.85 respectively. [Limitations] The test corpus is relatively small, which might 
influence our results. [Conclusions] The proposed method was an effective and reliable way to conduct sentiment 
analysis for the Chinese book reviews. 

Keywords: Chinese book reviews Sentiment analysis dictionary Seed word Sentiment classification SO-PMI 
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